Адміністрація вирішила продати даний сайт. За детальною інформацією звертайтесь за адресою: rozrahu@gmail.com

Інформація про навчальний заклад

ВУЗ:
Національний університет Львівська політехніка
Інститут:
Не вказано
Факультет:
Прикладна лінгвістика
Кафедра:
Не вказано

Інформація про роботу

Рік:
2024
Тип роботи:
Методичні вказівки
Предмет:
Комп’ютерні системи

Частина тексту файла

Міністерство освіти і науки України Національний університет “Львівська політехніка” Кафедра “Інформаційні системи і мережі” Розпізнання тексту засобами FineReader 6.0 Методичні вказівки до виконання лабораторних робіт для студентів спеціальності 7.030.500 "Прикладна лінгвістика" з курсу "Комп'ютерні системи обробки текстової та графічної інформації" Затверджено на засіданні кафедри “Інформаційні системи і мережі” Протокол № _____ від “___” __________ 20114 року Розпізнання тексту засобами FineReader 6.0. Методичні вказівки до виконання лабораторних робіт для студентів спеціальності 7.030.500 "Прикладна лінгвістика", Голощук Р.О., ст. викладач, Гулка Т.Б., асистент, Львів, Вид-во Національного університету “Львівська політехніка”, 2012. Укладачі Голощук Р.О., ст. викладач, Гулка Т.Б., асистент Мета роботи. Ознайомитися та на практиці засвоїти основні принципи введення та перетворення текстової інформації з твердого носія в електронний вигляд з допомогою системи оптичного розпізнавання символів FineReader. ТЕОРЕТИЧНІ ВІДОМОСТІ Будь-який текст, перш ніж його перекладати, потрібно ввести в комп’ютер. Для введення та перетворення текстової інформації з твердого носія в електронний вигляд використовують сканер та професійні спеціалізовані пакети призначені для оптичного розпізнавання символів (OCR, Otical Character Recognition). Класична система для оптичного розпізнавання символів (OCRcистема) – це комп’ютерна система, яка дозволяє перетворювати отримане зі сканера графічне зображення сторінок в електронний текстовий файл, який може бути потім опрацьований у текстовому редакторі та системі автоматизованого перекладу. Для подальшого відновлення слід зберігати у тексті перекладу формат (зовнішній вигляд) оригіналу: шрифти, виділення, розбиття на таблиці, абзаци і колонки, структури заголовків та інші елементи оформлення (технологія Rich Text Format). Багато текстів містять малюнки, формули, фрагменти програм, які не перекладаються, але супроводжуються коментарями і повинні бути доступними для перегляду під час процесу перекладу. Малюнки і креслення містять підписи, які потрібно включати в склад перекладного матеріалу, а на кінцевій стадії повертати на попереднє місце. Ручне виконання таких операцій приводить до помилок і зниження продуктивності. Після закінчення цього етапу в режимі діалогу стають доступними для перегляду і редагування вікна вхідного тексту і зображень. Центральною проблемою розпізнавання є ідентифікація символу [3]. У перших системах для оптичного розпізнавання символів використовувався наступний алгоритм. Усім символам алфавіту ставились у відповідність матриці-еталони, які задавали розміщення темних та світлих крапок. Кожний символ зісканованого документу порівнювався з усіма еталонами. Якщо він виявлявся досить подібним на один із них (тобто відсоток співпадіння крапок зісканованого символу з крапками еталону є більше деякого порогового значення), то вважалося, що розпізнавання символу відбулося – гарантовано або умовно, в залежності від степеня співпадіння. в протилежному випадку, система для оптичного розпізнавання символів приймала рішення про неможливість ідентифікації. Такі системи називаються шрифтовими системами (англійський термін multifont). Основна перевага алгоритму, який в них використовується — це простота реалізації. Однак його суттєвий недолік полягає в тому, що існують десятки різноманітних шрифтів, і система для оптичного розпізнавання символів повинна мати велику базу даних, яка містить накреслення символів для кожного з них. Крім того, такі системи нездатні розпізнавати нові шрифти, а нерідко навіть різні друкуючі машинки однієї марки мають свій, індивідуальний «почерк». Системи для оптичного розпізнавання символів іншого класу, які називають омніфонтовими (шрифтонезалежними) системами, використовують в якості еталона порівняння евристичні правила накреслення символів, які не залежать від шрифту. На жаль, системи даного класу гірше працюють з текстами низької якості. Як відомо, висока ...
Антиботан аватар за замовчуванням

01.01.1970 03:01

Коментарі

Ви не можете залишити коментар. Для цього, будь ласка, увійдіть або зареєструйтесь.

Завантаження файлу

Якщо Ви маєте на своєму комп'ютері файли, пов'язані з навчанням( розрахункові, лабораторні, практичні, контрольні роботи та інше...), і Вам не шкода ними поділитись - то скористайтесь формою для завантаження файлу, попередньо заархівувавши все в архів .rar або .zip розміром до 100мб, і до нього невдовзі отримають доступ студенти всієї України! Ви отримаєте грошову винагороду в кінці місяця, якщо станете одним з трьох переможців!
Стань активним учасником руху antibotan!
Поділись актуальною інформацією,
і отримай привілеї у користуванні архівом! Детальніше

Оголошення від адміністратора

Антиботан аватар за замовчуванням

пропонує роботу

Admin

26.02.2019 12:38

Привіт усім учасникам нашого порталу! Хороші новини - з‘явилась можливість кожному заробити на своїх знаннях та вміннях. Тепер Ви можете продавати свої роботи на сайті заробляючи кошти, рейтинг і довіру користувачів. Потрібно завантажити роботу, вказати ціну і додати один інформативний скріншот з деякими частинами виконаних завдань. Навіть одна якісна і всім необхідна робота може продатися сотні разів. «Головою заробляти» продуктивніше ніж руками! :-)

Новини